Existing Temporal Action Detection (TAD) methods typically take a pre-processing step in converting an input varying-length video into a fixed-length snippet representation sequence, before temporal boundary estimation and action classification. This pre-processing step would temporally downsample the video, reducing the inference resolution and hampering the detection performance in the original temporal resolution. In essence, this is due to a temporal quantization error introduced during the resolution downsampling and recovery. This could negatively impact the TAD performance, but is largely ignored by existing methods. To address this problem, in this work we introduce a novel model-agnostic post-processing method without model redesign and retraining. Specifically, we model the start and end points of action instances with a Gaussian distribution for enabling temporal boundary inference at a sub-snippet level. We further introduce an efficient Taylor-expansion based approximation, dubbed as Gaussian Approximated Post-processing (GAP). Extensive experiments demonstrate that our GAP can consistently improve a wide variety of pre-trained off-the-shelf TAD models on the challenging ActivityNet (+0.2% -0.7% in average mAP) and THUMOS (+0.2% -0.5% in average mAP) benchmarks. Such performance gains are already significant and highly comparable to those achieved by novel model designs. Also, GAP can be integrated with model training for further performance gain. Importantly, GAP enables lower temporal resolutions for more efficient inference, facilitating low-resource applications. The code will be available in https://github.com/sauradip/GAP
translated by 谷歌翻译
Few-shot (FS) and zero-shot (ZS) learning are two different approaches for scaling temporal action detection (TAD) to new classes. The former adapts a pretrained vision model to a new task represented by as few as a single video per class, whilst the latter requires no training examples by exploiting a semantic description of the new class. In this work, we introduce a new multi-modality few-shot (MMFS) TAD problem, which can be considered as a marriage of FS-TAD and ZS-TAD by leveraging few-shot support videos and new class names jointly. To tackle this problem, we further introduce a novel MUlti-modality PromPt mETa-learning (MUPPET) method. This is enabled by efficiently bridging pretrained vision and language models whilst maximally reusing already learned capacity. Concretely, we construct multi-modal prompts by mapping support videos into the textual token space of a vision-language model using a meta-learned adapter-equipped visual semantics tokenizer. To tackle large intra-class variation, we further design a query feature regulation scheme. Extensive experiments on ActivityNetv1.3 and THUMOS14 demonstrate that our MUPPET outperforms state-of-the-art alternative methods, often by a large margin. We also show that our MUPPET can be easily extended to tackle the few-shot object detection problem and again achieves the state-of-the-art performance on MS-COCO dataset. The code will be available in https://github.com/sauradip/MUPPET
translated by 谷歌翻译
最先进的深度学习模型通常经过大量昂贵的标签培训数据培训。但是,需要详尽的手动注释可能会降低该模型在有限标签制度中的普遍性。半监督的学习和无监督的学习提供了有希望的范式,可以从大量未标记的视觉数据中学习。这些范式的最新进展表明,利用未标记的数据来改善模型概括并提供更好的模型初始化的良好好处。在这项调查中,我们从统一的角度回顾了有关半监督学习(SSL)和无监督学习(UL)的最新高级深度学习算法(SSL)。为了对这些领域的最先进的整体了解,我们提出了统一的分类法。我们将现有代表性SSL和UL分类为全面而有见地的分析,以在不同的计算机视觉任务中的不同学习场景和应用中突出其设计理由。最后,我们讨论了SSL和UL的新兴趋势和公开挑战,以阐明未来的关键研究方向。
translated by 谷歌翻译
现有的最佳3D对象检测器通常依赖于多模式融合策略。但是,由于忽略了特定于模式的有用信息,因此从根本上限制了该设计,并最终阻碍了模型性能。为了解决这一局限性,在这项工作中,我们介绍了一种新型的模式相互作用策略,在该策略中,在整个过程中学习和维护单个单模式表示,以使其在物体检测过程中被利用其独特特征。为了实现这一建议的策略,我们设计了一个深层互动体系结构,其特征是多模式代表性交互编码器和多模式预测交互解码器。大规模Nuscenes数据集的实验表明,我们所提出的方法经常超过所有先前的艺术。至关重要的是,我们的方法在竞争激烈的Nuscenes对象检测排行榜上排名第一。
translated by 谷歌翻译
视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验,卷积神经网络(CNN)已成为大多数深视觉模型的事实上的标准架构。例如,经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络(FCN)。编码器逐渐减少了空间分辨率,并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要,因此最新的努力一直集中在通过扩张(即极度)卷积或插入注意力模块来增加接受场。但是,基于FCN的体系结构保持不变。在本文中,我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言,我们部署纯变压器以将图像编码为一系列贴片,而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境,可以学习更强大的视觉表示形式,以更好地解决视力任务。特别是,我们的细分模型(称为分割变压器(SETR))在ADE20K上擅长(50.28%MIOU,这是提交当天测试排行榜中的第一个位置),Pascal环境(55.83%MIOU),并在CityScapes上达到竞争成果。此外,我们制定了一个分层局部全球(HLG)变压器的家族,其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明,我们的方法在各种视觉识别任务(例如,图像分类,对象检测和实例分割和语义分割)上实现了吸引力的性能。
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于大型培训数据,包括细分级注释,仅限于在推理期间单独识别先前看到的课程。为每类兴趣收集和注释一个大型培训集是昂贵的,因此无法计算。零射TAD(ZS-TAD)通过启用预训练的模型来识别任何看不见的动作类别来解决这一障碍。同时,ZS-TAD的调查大大降低,ZS-Tad也更具挑战性。受零摄像图像分类的成功的启发,我们旨在解决更复杂的TAD任务。一种直观的方法是将现成的建议探测器与剪辑样式分类集成。但是,由于顺序定位(例如,提案生成)和分类设计,它很容易进行定位误差传播。为了克服这个问题,在本文中,我们通过视觉提示(陈旧)提出了一种新型的零射击时间动作检测模型。这种新颖的设计通过破坏介于两者之间的错误传播途径来有效地消除了定位和分类之间的依赖性。我们进一步介绍了分类和定位之间的相互作用机制,以改善优化。对标准ZS-TAD视频基准测试的广泛实验表明,我们的陈旧的表现明显优于最先进的替代方案。此外,我们的模型还与最近的强大竞争对手相比,在受到监督的TAD上还能产生卓越的成果。 Stale的Pytorch实现可从https://github.com/sauradip/stale获得。
translated by 谷歌翻译
事实证明,大规模的视觉和语言(V+L)预训练已被证明有效地增强了下游V+L任务。但是,当涉及时尚域时,现有的V+L方法是不足的,因为它们忽略了时尚V+L数据和下游任务的独特特征。在这项工作中,我们提出了一个以时尚为中心的新型V+L表示框架,被称为Fashionvil。它包含两个新型时尚特定的预训练任务,旨在使用时尚V+L数据利用两个内在属性。首先,与其他域仅包含单个图像文本对的其他域相比,时尚域中可能有多个图像。因此,我们提出了一项多视图对比学习任务,以将一个图像的可视化表示为另一个图像+文本的组成多模式表示。其次,时尚文本(例如,产品描述)通常包含丰富的细粒概念(属性/名词短语)。为了利用这一点,引入了伪归因于分类任务,以鼓励同一概念的学习的单峰(视觉/文本)表示。此外,时尚V+L任务唯一包含不符合常见的一流或两流体系结构的任务(例如,文本引导的图像检索)。因此,我们提出了一个灵活的,多功能的V+L模型体系结构,该体系结构由模态 - 静态变压器组成,以便可以灵活地适应任何下游任务。广泛的实验表明,我们的FashionVil在五个下游任务中实现了新的最新技术。代码可从https://github.com/brandonhanx/mmf获得。
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于带有细分级注释的大量培训数据。因此,收集和注释这样的训练集非常昂贵且不可计入。半监督的TAD(SS-TAD)通过利用规模自由的未标记视频来减轻此问题。但是,SS-Tad也比有监督的TAD更具挑战性的问题,因此研究得多。先前的SS-TAD方法直接结合了现有的基于建议的TAD方法和SSL方法。由于它们的顺序定位(例如,提案生成)和分类设计,它们很容易出现误差传播。为了克服这一局限性,在这项工作中,我们提出了一种基于无建议的时间掩模(点)的新型半监督时间动作检测模型,并具有平行的定位(掩码生成)和分类体系结构。这种新颖的设计通过切断介于两者之间的错误传播途径来有效地消除了定位和分类之间的依赖性。我们进一步介绍了用于预测细化的分类和本地化之间的交互机制,以及用于自我监督模型预训练的新借口任务。对两个标准基准测试的广泛实验表明,我们的现场表现要优于最先进的替代方案,通常是很大的边距。 pytorch实施现场可在https://github.com/sauradip/spot上获得
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于每个视频产生大量的建议。这导致由于提案生成和/或主张行动实例评估以及最终的高计算成本而导致复杂的模型设计。在这项工作中,我们首次提出了一个带有全局分割掩码(TAG)的无建议的时间动作检测模型。我们的核心想法是以完整的视频长度共同学习每个操作实例的全局细分面具。标签模型与基于常规建议的方法有显着不同,通过关注全球时间表示学习,直接在没有建议的情况下直接检测本地起点和终点的行动点。此外,通过对TAD进行整体建模,而不是在单个建议级别上进行本地建模,标签需要更简单的模型体系结构,计算成本较低。广泛的实验表明,尽管设计更简单,但标签的表现优于现有的TAD方法,在两个基准上实现了新的最新性能。重要的是,训练的速度更快约20倍,推理效率更高。我们的标签的Pytorch实现可在https://github.com/sauradip/tags上获得。
translated by 谷歌翻译
基于分数的生成模型(SGM)最近已成为一类有希望的生成模型。但是,一个基本的限制是,由于需要许多顺序计算的迭代(例如,2000年),它们的推论非常慢。直观的加速方法是减少采样迭代,但是导致严重的性能降解。我们通过将扩散抽样过程视为大都市调整后的Langevin算法来研究这个问题,这有助于揭示根本的原因是条件不良的曲率。在这种见解下,我们提出了一种模型不足的预处理扩散采样(PDS)方法,该方法利用矩阵预处理以减轻上述问题。至关重要的是,在理论上证明了PDS可以收敛到SGM的原始目标分布,无需再进行重新训练。在三个图像数据集上进行了各种分辨率和多样性的广泛实验,可以验证PD始终加速现成的SGM,同时保持合成质量。特别是,PD在更具挑战性的高分辨率(1024x1024)图像生成上最多可加速29倍。
translated by 谷歌翻译